#Kimi Linear

張小珺 Xiaojùn

1个月前

这篇很前沿，也很hardcore——关于算法和架构创新。由于数据、算力、算法三驾马车，数据难度增大，中国算力相对有限，中国的算法走在了世界前沿。近几年架构最大突破是DeepSeek的MoE，它让MoE成了全球共识；而下一个突破的重要方向可能是Attention。中国公司已经在Attention展开了不同技术bet。本集我们从Kimi Linear、DeepSeek Sparse、Minimax M2、Qwen3-Next聊起，嘉宾分析点评了这些不同技术bet；也带领大家考古人工智能算法变种史，并预演未来算法与架构的改进方案（这里烧脑又精彩🤯）。本集是我们的往期嘉宾松琳（Sonta）的返场。松琳在MIT的研究方向是线性注意力，参与了Kimi Linear和Qwen3-Next的工作，是Kimi Linear论文的作者之一。

#算法 #架构创新 #DeepSeek MoE #attention #Kimi Linear

1个月前

月之暗面把 Kimi Linear 开源了！这东西是专门用来处理超长文本的。简单说几个数据： KV 缓存降了 75%，处理百万字的文本时，解码速度能快 6 倍多。技术上用了个 3:1 的混合设计，就是 3 个线性注意力层配 1 个全注意力层。核心模块叫 KDA，能让模型自己判断该记住什么、该忘掉什么。测试下来，在长文本生成、代码理解、数学推理这些场景，表现确实比传统的全注意力模型好一些。特别是做强化学习训练的时候，准确率涨得挺快。模型有 480 亿参数，但每次跑的时候只激活 30 亿，所以资源消耗没想象中那么夸张。如果你要处理特别长的上下文，这个架构应该能帮上忙。已经在 HuggingFace 上了，感兴趣可以看看。

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 27 条信息

#Kimi Linear #开源 #超长文本处理 #线性注意力 #月之暗面